1
Dalla Verosimiglianza Statistica ai Problemi Convessi
MATH008Lesson 7
00:00

L'inferenza statistica chiede: "Dati questi dati, quali sono i parametri più probabili?" Questa diapositiva collega questa domanda con Ottimizzazione Convessa. Trasformiamo il concetto probabilistico di verosimiglianza in un programma strutturato, mostrando che sotto condizioni di log-concavità, trovare la migliore stima è equivalente a risolvere un problema di ottimizzazione convessa.

Il Quadro della Verosimiglianza

La funzione di verosimiglianza è la distribuzione di probabilità $p_x(y)$ considerata come funzione del parametro $x$ per un campione osservato fisso $y$. Per stimare $x$, utilizziamo stima della massima verosimiglianza (ML): scegliendo il valore che rende i dati osservati più probabili.

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

Per efficienza computazionale, utilizziamo la funzione di log-verosimiglianza, $l(x) = \log p_x(y)$. Poiché il logaritmo è una funzione strettamente crescente, preserva la posizione del massimo trasformando i prodotti (da osservazioni indipendenti) in somme facilmente gestibili.

Il Programma di Ottimizzazione della MLE (7.1)

Formalizziamo la stima come un programma matematico:

$$\begin{array}{ll} \text{massimizza} & l(x) = \log p_x(y) \\ \text{soggetto a} & x \in C \end{array}$$ (7.1)

Questo programma è un problema di ottimizzazione convesso se:

  • La funzione di log-verosimiglianza $l$ è concava per ogni valore di $y$.
  • L'insieme ammissibile $C$ (informazione a priori) è descritto da vincoli di uguaglianza lineari e vincoli di disuguaglianza convessi.

Integrazione di Vincoli e Informazioni A Priori

La stima della massima verosimiglianza richiede di ridefinire $p_x(y)$ come zero per $x \notin C$ per imporre esplicitamente vincoli fisici o a priori. Nello spazio dell'ottimizzazione, ciò significa che la funzione di log-verosimiglianza viene assegnata il valore $-\infty$ per i parametri $x$ che violano questi vincoli, creando così un ostacolo insormontabile per l'ottimizzatore.

🎯 Principio Fondamentale
La transizione da "Massima Verosimiglianza" a "Programma Convesso" si basa sulla concavità della densità logaritmica. Se il rumore o la distribuzione è log-concava, l'analisi statistica diventa un problema di ottimizzazione risolvibile globalmente.